24 avr. 2026
| Individus \(k\) | Isaac | Antoine | Alice | Amira | Hugo | Laurent | Manu | Manon | Raymond | Billel | Jean | Jeanne |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Probabilité \(\pi_k\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) | \(\frac{4}{12}\) |
| Poids initial \(d_k\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) | \(3\) |
Problème de cohérence important :
Problème ?
\[\underset{(w_1, ..., w_n) \in \mathbb{R}^n}{\operatorname{argmin}} \sum_{k \in S} d_k G(\frac{w_k}{d_k}) \text{ sous contrainte que } t_x = \sum_{k \in S} w_k x_k\]
Quelle forme pour \(G\) ?
| Méthode | Linéaire | Exponentielle |
|---|---|---|
| Pseudo distance | \(g(x) = \frac{1}{2}(x - 1)^2\) | \(g(x) = x\log(x) - r + 1\) |
| Fonction dérivée de la réciproque | \(F(u) = 1 + u\) | \(F(u) = \exp(u)\) |
Nous allons caler les poids précédents sur la variable de population totale.
La fonction de pseudo-distance sera la fonction du \(\khi^2\) : \[g(\frac{w_k}{d_k}) = \frac{1}{2} \left( \frac{w_k}{d_k} - 1 \right)^2\]
La fonction sampling::calib utilise :
Cette fonction retourne un vecteur \((g_1, ..., g_n)\) où \(g_k = \frac{w_k}{d_k}\).
Afin d’obtenir l’estimation associée à l’estimateur calé :
calib par le poids initial.Le choix de la fonction de distance a une incidence sur les poids calés obtenues :
Attention : comme \(w_k(S)\) est fonction de l’échantillon, on ne peut plus utiliser la linéarité de l’opérateur d’espérance pour calculer l’éventuel biais. Cependant, l’estimateur calé est approximativement sans biais.
Comme indiqué, la variance asymptotique de l’estimateur calé est indépendant de la méthode utilisée.
La variance asymptotique est approximativement celle de l’estimateur d’Horvitz-Thompson des résidus \(\hat{\varepsilon}_k\) de la régression linéaire de la variable d’intérêt \(y_k\) sur les variables auxiliaires \(x_k\).
Ces résidus sont calculables en utilisant la fonction calibev du package gustave.
library("data.table")
library("sampling")
ech <- fread("https://sondages.cours.gehin.net/Cours/Cours%206/data/ech.csv", dec = ",")
HTestimator(ech$humain, ech$prob_inclu)
tot <- 194387
n <- nrow(ech)
N <- 350
g <- calib(ech$pop, d=1/ech$prob_inclu, tot , method = "linear")
tot_cal <- crossprod(g/ech$prob_inclu, ech$pop)
#Calcul de la matrice des pikl du SRS(n,N)
pikl <- matrix((n*(n-1))/(N*(N-1)), n, n)
diag(pikl) <- n/N
#Calcul de la variance
calibev(ech$humain,ech$pop,tot, pikl,
1/ech$prob_inclu, g, with = TRUE)